Везде по 30000000 строк, для чанков пригодится
Проверим возможность загрузки данных напрямую через pd и dask:
В обоих случаях выигрышь в памяти примерно 2.35 раза, при оперативной памяти 16 Гб 80+ Гб данных загрузить одновременно не выйдет :(
+- аналогично для файла с данными, будем обрабатывать чанками файлы по отдельности
с Оценка важности признаков по матрице корреляции
2. и 1.d,e изменение данныхДанные кроме указанных выше практически не коррелируют с таргетом, поэтому имеет смысл оставить в датасете только эти данные
Выполним нормализацию, оставим только коррелирующие переменные и понизим размерность данных до float16, т.к. после нормализации данные будут в дипазоне от 0 до 1
Выполним нормализацию и отбросим некоррелирующие параметрыНе ну чанки писать сложно, там думать надо( А 6 отдельных ячеек со стартом с уже считанной до этого позиции звучит весело)
Ну в оправдание 6 ячеек вместо чанков могу сказать, что удобна возможность остановить на 3 ячейке и потестить уже загруженное, а потом дозапустить оставшиеся 4 ячейки Например я только пройдя треть работы с данными заметил что неправильно указал подсчет smemory в последней ячейке(
2.1. Данные подготовлены и сохранены в папку datasetsПроцент оптимизации за счет оптимизации типов данных:
2. Данные подготовлены и сохранены в папку datasets